近年来,文本发现的主要范例是将文本检测和识别的任务结合到一个端到端的框架中。在此范式下,这两个任务都是通过从输入图像中提取的共享全局特征图操作来完成的。端到端方法面临的主要挑战之一是识别跨音阶变化(较小或较大的文本)和任意单词旋转角的文本时的性能退化。在这项工作中,我们通过提出一种新型的全球到本地关注机制来解决这些挑战,用于文本斑点,称为玻璃,将全球和本地特征融合在一起。全局功能是从共享骨干线中提取的,从整个图像中保留上下文信息,而本地功能则在调整大小的高分辨率旋转的单词作物上单独计算。从当地农作物中提取的信息减轻了尺度和单词旋转的许多固有困难。我们显示了跨音阶和角度的性能分析,突出了尺度和角度的肢体的改善。此外,我们引入了一个方向感知的损失项,以监督检测任务,并显示其对所有角度的检测和识别性能的贡献。最后,我们通过将玻璃纳入其他领先的文本发现架构,改善其文本斑点性能来表明玻璃是一般的。我们的方法在包括新发布的Textocr在内的多个基准上实现了最新的结果。
translated by 谷歌翻译